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摘要 : [目的 /意义 ] 数 据 是 数字 人 文 研究 的 基础 和 核心 之 一 ,图 书馆 人 文 数据 组 织 与 重 构 不 但 能 提高 数字 
资源 的 利用 率 , 而 且 能 拓展 图 书馆 人 文 数据 服务 ,可 极 大 地 促进 数字 人 文科 学 的 发 展 , 也 是 图 书馆 知识 型 专业 
服务 的 具体 体现 ,有 利于 提供 更 高 层次 领域 的 服务 。[ 方 法 /过 程 ] 分 析 数 字 人 文 研究 中 的 人 文 数据 特点 及 人 文 
学 者 研究 对 人 文 数据 的 需求 ,认为 图 书馆 需 从 人 文 数据 的 完整 性 、 可 计算 性 、 可 用 性 及 重用 性 、 可 发 现 以 及 获得 
性 等 角度 出 发 进行 人 文 数据 组 织 与 重 构 。[ 结果 /结论 ] 要 克服 人 文 数据 碎片 化 带 来 的 零散 、 不 系统 的 次 病 , 必 
须 采用 数据 复原 与 重 构 的 方式 恢复 或 重建 人 文 数据 所 将 含 的 知识 之 间 的 联系 ,采用 数据 化 、 数 据 融合 、 数 据 关 
联 及 发 布 等 手段 ,最 终 实现 知识 单元 的 精细 粒度 化 、 知 识 组 织 的 语义 化 、 知 识 呈 现 的 可 视 化 。 
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数字 人 文 给 传统 的 人 文 社 会 学 科研 究 提供 了 新 的 
研 训 方法 和 研究 范式 ,从 根本 上 改变 人 文学 者 的 研 
完 访 式 , 让 人 研究 对 象 能 以 数据 的 形式 呈现 出 来 ,而 有 旦 能 
利 由 数字 技术 对 数据 对 象 进行 分 析 处 理 ” ,对 人 文学 
者 的 学 科 管 理 和 分 享 他 们 的 研究 产生 了 意义 深远 的 影 
响 忆 ,研究 人 员 越 来 越 多 地 要 求 大 规模 地 访问 具有 版 
权 三 许可 的 数据 ,以 进行 各 种 形式 的 计算 研究 (如 文本 
挖 乞 .数据 挖掘 机 需 学 习 ) 。 在 数字 人 文 研究 过 程 中 ， 
图 书馆 作为 资源 存储 库 , 经 过 多 年 的 发 展 ,在 人 文学 科 
领域 的 数据 资源 建设 已 具 相当 规模 ,图 书馆 建立 了 庞 


重 构 是 图 书馆 提供 数字 人 文 服务 的 重要 基础 。 
2 ”数字 人 文 背景 下 图 书馆 人 文 数据 服务 


面临 的 机 遇 与 挑战 
害 息 环境 的 更 新 迭代 不 仅仅 是 理念 上 的 跃进 ,更 
是 现实 需求 的 凸显 。 图 书馆 支持 人 文学 者 开展 人 文 计 


算 研 究 ,提供 资源 与 服务 已 取得 了 良好 的 效果 ,图 书馆 
从 最 初 参与 数字 化 项 目的 合作 ,发 展 到 现在 与 研究 人 
员 和 供应 商 协商 文本 挖掘 权 及 数据 成 果 发 布 和 托管 ， 
并 为 数字 人 文 研究 提供 研究 空间 与 场所 ,图 书馆 在 数 
字 人 文 研 究 中 发 挥 了 至 关 重 要 的 作用 ,多 年 来 ,图 书馆 


直 是 数字 人 文 研究 重要 的 合作 者 ” ,但 更 多 是 将 


大 的 人 文学 科 领 域 数字 资源 ,为 数字 人 文 研究 提供 了 
一 系列 信息 基础 设施 ,数据 与 数据 服务 已 成 为 图 书馆 
服务 的 延伸 ” ,在 去 中 介 化 的 趋势 下 ,图 书馆 急需 从 数 
字 和 馆藏 到 数字 数据 ,从 数据 管理 到 数据 服务 .从 数据 呈 
现 到 数据 分 析 的 转变 ,面向 数字 人 文 研究 的 服务 对 图 
书馆 来 说 既是 挑战 更 是 机 遇 ,成 为 图 书馆 转型 的 契机 ， 
岂 将 成 为 图 书馆 服务 新 的 增长 点 。 如 何 将 这 些 数 据 组 
织 重 构 为 适合 数字 人 文 研究 所 需 的 人 文 数据 是 图 书馆 
展开 人 文 数据 服务 的 前 提 与 关键 ,而 人 文 数据 组 织 与 


ww 


馆 作为 信息 资源 与 信息 服务 的 提供 者 ” ,数字 人 文 
研究 致力 于 促进 信息 资源 的 广泛 获取 和 共享 .科研 数 
据 的 处 理 和 研究 方法 创新 \ 促 进 学 术 沟 通 、 加 强 学 习 和 
教学 ,同时 提升 文化 信息 资源 的 公众 影响 力 ,而 这 些 恰 
恰 也 是 图 书馆 工作 和 发 展 的 意义 所 在 ,目标 的 一 致 性 
决定 了 图 书馆 是 数字 人 文 的 天 然 合 作 伙伴 。 图 书馆 
作为 知识 .信息 和 数据 的 存储 库 , 已 经 在 数据 存储 组 
织 文本 挖 据 和 元 数据 标准 等 数据 管理 .服务 方面 积累 
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了 丰富 的 经 验 " ,数字 人 文 研究 为 其 成 功 介 入 到 跨 学 
科 数 据 的 管理 活动 中 , 与 人 文 领域 .计算 机 领域 的 学 术 
团体 建立 密切 的 合作 伙伴 关系 提供 了 一 个 独特 的 机 
[9] 

数字 人 文 由 人 文 计算 发 展 而 来 ,数字 人 文 最 显著 
的 特点 就 是 借助 计算 机 进行 量化 分 析 , 数 据 是 数字 人 
文 研究 的 基础 和 核心 之 一 ,数字 人 文 领域 的 研究 使 数 
据 驱 动 研究 成 为 主流 "" ,数字 人 文 研究 要 求人 文 数据 
具有 集成 化 . 细 粒 化 .关联 化 及 可 计算 化 。 随 着 数字 图 
书馆 的 发 展 ,大量 的 图 书 . 报 纸 .期 刊 .照片 .绘本 、 乐 
曲 .古籍 .图 像 以 及 视频 等 人 文 资料 被 数字 化 ,形成 数 
量 庞大 ,种 类 繁多 .具有 较 高 价值 的 数字 化 资源 ,数字 
化 文档 资料 ,数据库 和 检索 系统 等 逐渐 成 为 人 文 研究 
的 基础 平台 ,图 书馆 数字 资源 是 人 文学 科研 究 的 沃土， 
虽 杖 图 书馆 已 在 哲学 、 历 史学 ,文学 .语言 学 、 艺 术 学 、 
人 E 学 等 人 文 社 科 领 域 有 丰富 的 数字 资源 ,但 图 书馆 
信和 数据 分 散 .孤立 .封闭 而 难以 被 利用 的 现实 一 直 制 
维 苹 图 书馆 在 数字 人 文 研究 中 的 作用 。 图 书馆 所 储存 
的 交 本 .图 像 . 音 频 和 深度 标 引 及 描述 它们 的 元 数据 通 
种 数字 人 文学 者 的 研究 对 象 ,但 数字 化 的 信息 资源 ， 
+ 正 改变 使 用 者 利用 文献 的 方式 ,数字 化 文献 无 
SE“ 读 "转变 为 “分 析 ”, 因此 ,目前 图 书馆 参与 数字 
人 六 研究 的 活动 有 限 ,作为 数字 人 文 主要 数据 管理 者 
和 得 供 者 ,图 书馆 有 必要 为 人 文学 者 提供 必要 的 人 文 
净 狂 ,将 人 文 研究 学 者 从 繁杂 的 资料 收集 整理 和 辨 仿 
工作 中 解脱 出 来 。 
“三 图 书馆 开展 面向 数字 人 文 研究 服务 势 在 必 行 ,是 
学 稳 馆 员 服 务 及 嵌入 式 服务 理念 的 延伸 ,是 知识 型 专 
业 服 务 的 具体 体现 ,更 是 图 书馆 转型 创新 趋势 ,将 成 为 
图 书馆 服务 新 的 增长 点 。 多 年 来 ,图 书馆 界 也 比较 重 
视 人 文 数据 组 织 与 重 构 , 建 设 了 庞大 的 人 文 数据 库 , 早 
在 1990 年 ,美国 国会 图 书馆 的 美国 记忆 等 标志 性 项 目 
开始 探索 文本 .动态 图 像 和 音频 的 大 规模 数字 化 "， 
HathiTrust 也 一 直人 致力 于 信息 资源 的 保存 与 共享 ,并 提 
供 对 数 百 万 文本 作品 的 访问 ,通过 数据 胶 吉 的 形式 提 
供 人 文 数据 服务 ” ,我 国 的 CADAL 数字 图 书馆 也 开 
放 了 近 250 万 图 书 。 尽 管 提供 了 丰富 的 人 文 数据 库 ， 
但 图 书馆 长 期 以 来 仅 限于 展示 其 人 文 数据 (书籍 .图 像 
等 ) , 离 适 合 数字 人 文 研究 的 人 文 数据 还 有 一 定 差距 。 
图 书馆 所 存储 的 庞大 数据 资源 是 数字 人 文 发 展 的 重要 
基础 ,如 何 将 这 些 数据 组 织 、 重 构 为 适合 数字 人 文 研究 
所 需 的 人 文 数据 是 图 书馆 展开 数据 服务 的 前 提 与 关 
键 ,这 也 是 图 书馆 开展 数字 人 文 研究 服务 的 基础 。 图 


过 
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书馆 数据 组 织 与 重 构 不 但 能 提高 数字 资源 的 利用 率 ， 
而 且 能 拓展 图 书馆 高 层次 服务 领域 ,而 高 质量 的 数据 
又 能 保障 数字 人 文 研究 的 快速 展开 ,提高 研究 的 效率 
与 质量 。 

人 文 数据 的 研究 也 越 来 越 引起 学 者 的 关注 ,对 人 
文 数据 的 组 织 与 重 构 进行 了 比较 广泛 的 探讨 ,C. 
Schich 对 数字 人 文 研究 中 的 “数据 ”不 同类 型 进行 了 
详细 的 分 析 " ,T. Padilla 则 对 人 文 数据 收集 的 完整 
性 .表现 形式 及 访问 等 进行 了 研究 ;人文 数据 监护 
也 引起 了 学 者 的 注意 上 “9 ,一 些 会 议 (沙龙 ) 也 对 构造 
面向 可 计算 的 人 文 数据 及 人 文 数据 的 重用 问题 进行 了 
广泛 的 探讨 ” ,而 人 文 资 料 的 数据 化 已 经 进行 了 大 量 
的 实践 ,形成 了 一 定 规模 的 人 文 数据 库 ”“”"” 。 人 文 数 
据 是 数据 人 文 研究 的 基础 之 一 , 人文 数 据 的 组 织 与 重 
构 是 图 书馆 提供 数据 服务 的 重要 任务 ,也 是 数字 人 文 
背景 下 的 图 书馆 人 文 数据 服务 面临 的 机 遇 与 挑战 。 


3 数字 人 文 研究 中 的 人 文 数据 特点 与 


一 


人 文学 者 需求 
人 文 数据 主要 由 计算 机 处 理 的 可 计算 化 的 数字 形 


式 编 码 ,主要 由 格式 化 数据 文本、 图 像 .音频 和 视频 等 
组 成 。 图 书馆 人 文 数据 组 织 服 务 与 应 用 研究 应 以 需求 
为 导向 ,根据 人 文 数据 的 特点 深入 调研 科研 人 员 的 数 
据 需 求 ,遵循 数 字 人 文 研究 应 用 中 的 数据 获取 、 标 注 、 
比较 .取样 阐释 与 表现 方式 ,以 图 书馆 现 有 数据 资源 
为 基础 进行 抽取 、 融 合 、 重 组 形成 若干 人 文学 科研 究 所 
需 数据 ,积极 创造 有 利于 科研 人 员 沟 通 和 创造 的 基础 
人 文 数据 平台 。 
3.1 数字 人 文 研究 中 的 人 文 数据 特点 

在 传统 人 文学 科研 究 的 过 程 中 学 者 的 大 部 分 时 间 
耗费 在 相关 材料 收集 及 整理 方面 ,而 且 人 文学 科 的 研 
究 缺 乏 研 究 团 队 ,大 多 以 个 体 研 究 为 主 , 人 文学 科研 究 
所 需 资 料 是 通过 长 时 间 积累 而 成 ,加 上 人 文学 者 数字 
化 技术 的 欠缺 使 得 数据 建设 的 过 程 周 期 长 ,人 文 数 据 
的 个 体 化 色彩 通常 很 强 , 不 同人 文学 者 对 同一 份 资料 
的 解读 往往 千差万别 ,难以 达成 共识 ; 男 一 方面 ,记载 
又 往往 在 质量 、 体 量 题材 .记录 方式 、 详 略 程度 上 极 不 
均匀 ,导致 随 之 而 来 的 数据 经 常 有 大 量 残缺 ” ,因此 ， 
从 宏观 层次 来 说 这 就 决定 了 人 文 数据 杂乱 且 碎 片 化 特 
点 ,呈现 出 非 结 构 化 混乱 和 隐 含 .形式 各 异 。 

从 微观 角度 来 看 人 文 数据 具有 两 个 维度 ,第 一 个 
维度 描述 数据 的 结构 ,清晰 和 显 式 ,第 二 个 维度 描述 了 
数据 的 大 小 和 变化 程度 “ 。 大 部 分 人 文 数据 是 形式 
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化 的 表格 ,具有 数据 结构 清晰 ,属性 值 大 小 和 变化 程度 
明确 的 特性 ,但 人 文学 科 中 的 人 文 数据 也 有 其 特殊 性 ， 
书本 或 手稿 中 的 文字 或 构成 绘画 的 视觉 元 素 虽然 是 数 
据 ,但 他 们 是 模拟 的 非 离散 数据 ,难以 通过 计算 分 析 或 
转换 ,语言 .文本 ,绘画 和 音乐 则 具有 超出 物理 上 可 测 
量 的 维度 的 符号 系统 ,这 些 维度 的 分 析 依 赖 于 语义 和 
语 用 , 即 在 语 境 中 的 意义 依赖 于 语 境 的 解释 和 人 工 理 
解 标注 ,因此 其 可 能 具有 多 义 性 ,人 文 数据 增加 了 研究 
人 员 与 其 研究 对 象 之 间 关系 的 复杂 性 。 人 文 数据 的 可 
计算 ,可 量化 是 数字 人 文 研究 的 另 一 大 特点 ,数字 人 文 
核心 目标 是 将 现代 信息 技术 融入 人 文 领域 ,从 而 改变 
知识 的 获取 ,标注 ,比较 ,取样 .阐释 与 表现 方式 ,通过 
设计 .计算 分 析 , 可 视 化 等 手段 重 塑 和 改造 人 文 知识 ， 
为 学 者 提供 更 多 差异 化 ,规律 性 ` 宏 观 性 、 趋 势 性 研究 
的 可 能 和 线索 ,从 而 扩展 学 术 疆 域 和 潜力 。 

3@3 人 文学 者 的 人 文 数据 需求 

[LO 数字 人 文 研究 对 人 文 数据 提出 了 独特 的 要 求 ,人 
文 组 据 的 组 织 与 构建 很 大 程度 上 由 学 科 规 范 和 方法 论 
所 送 定 ,人 文 数据 的 组 织 通常 需要 有 人 文 素养 的 介入 ， 
即 占 要 了 解 人 文 数据 特点 及 符合 人 文学 者 研究 的 需求 
本 篆 确 保 人 文 数据 的 有 效 性 。 集 成 与 融合 的 数字 化 次 
糙 司 数据 是 数字 人 文 研究 的 基础 ,人 文学 者 的 数字 人 
区 斌 究 模式 从 以 “ 读 "文献 的 方式 为 主 转变 为 "分析 ” 
文献 为 主 ,将 文献 中 的 描述 内 容 转变 为 可 分 析 的 数据 ， 
纲 咯 作为 人 文学 科研 究 的 辅助 手段 , 即 基于 数据 的 研 


究 多 


"三 空间 与 时 间 是 人 类 赖 以 生存 和 发 展 的 双重 维度 ， 
也 故 历 代 哲 人 思考 和 探讨 的 焦点 论题 1。 人 文学 科 
研究 的 对 象 大 多 与 时 间 紧密 结合 , 需 以 时 间 为 主线 分 
析 研 究 对 象 的 演变 ,形成 及 发 展 过 程 ,对 历时 性 的 内 容 
变迁 深入 理解 ,从 空间 角度 对 研究 对 象 从 地 理 空间 进 
行 分 析 和 解读 ,从 时 空 角度 分 析 空 间 位 置 的 分 布 组 合 
与 变迁 ,事物 关系 分 析 是 时 间 分 析 和 空间 分 析 的 再 综 
合 ,强调 事物 之 间 的 关系 或 结构 在 时 间 和 空间 上 的 固 


融合 ,经 过 对 比 与 数理 统计 分 析 ,力求 反映 出 各 研究 主 
题 与 其 他 要 素 之 间 的 关系 ,并 解释 出 隐 含 在 其 背后 的 
规律 。 人 文 数据 不 但 有 描述 对 象 的 元 数据 ,还 有 依赖 
于 语 境 的 解释 和 人 工 理 解 的 标注 数据 ,更 有 意义 表达 
的 语义 数据 , 既 有 单一 属性 的 数据 ,也 有 事物 整体 描述 
的 数据 ,通过 将 不 同 层次 .不同 角度 的 碎片 化 数据 建立 
关联 ,从 而 形成 一 个 统一 的 知识 表述 与 构建 , 重 构 发 现 
原来 内 在 的 知识 ,或 产生 新 的 理解 ,将 碎片 化 知识 整合 
后 ,有 利于 形成 系统 而 完整 的 知识 体系 。 知 识 重 构 是 
数字 人 文 的 重要 应 用 ,可 进一步 激活 并 再 生 人 类 知识 。 

数据 驱动 的 研究 范式 被 越 来 越 多 地 应 用 在 人 文学 
科 中 ,将 不 同 来 源 海量 的 各 种 不 同类 型 的 、 结 构 化 和 
非 结 构 化 .特点 性 质 的 数据 在 逻辑 上 或 物理 上 有 机 地 
集中 和 展现 ,提供 人 文 数据 共享 与 重用 。 人 文 数据 的 
组 织 与 重 构 可 认为 是 数字 人 文 研究 的 基础 , 早 在 1949 
年 , B. Roberto 使 用 电脑 处 理 神 学 家 A，Thomas 的 全 
集 , 半 自动 地 生成 出 作品 中 拉丁 文字 词 的 索引 ,其 实 就 
是 人 文 数据 组 织 与 重 构 。 


4 ”面向 数字 人 文 研究 的 图 书馆 人 文 数据 


组 织 及 重 构 基本 要 素 
信息 科学 家 工 . Floridi 将 数据 定义 为 最 基本 的 单 


元 ,只 有 当 数 据 具有 一 些 可 识别 的 结构 并 具有 某 种 意 
义 ,它们 才能 被 视 为 信息 ” ,数据 可 以 用 许多 不 同 的 
形式 来 表示 ,数据 的 特殊 之 处 在 于 它 是 离散 的 而 不 是 
连续 的 ,人 文学 科 中 的 数据 可 认为 是 对 给 定 对 象 的 某 
些 方面 含义 有 选择 地 通过 机 器 所 能 理解 及 可 读 的 数字 
来 表示 与 描述 。 人 文 数据 的 加 工 、 组 织 和 解释 由 学 
科 规 范 和 方法 论 所 决定 ,人 文 数据 的 可 加 工 性 使 得 在 
其 宏观 层面 上 也 能 够 通过 微观 的 数据 来 测量 .识别 ,使 
得 数字 人 文学 者 能 将 人 文 数据 广泛 应 用 于 可 视 化 和 数 
据 挖掘 。 数 字 人 文 研究 中 的 人 文 数据 具有 的 特点 
及 人 文学 者 研究 对 人 文 数据 的 需求 构成 了 图 书馆 人 文 
数据 组 织 与 重 构 的 基本 要 素 ,其 中 主要 有 人 文 数据 的 


定 联系 和 相互 影响 ,数字 人 文 的 研究 视角 也 主要 聚焦 
在 研究 对 象 空间 .时 间 及 之 间 的 关系 上 ,使 得 数字 人 文 
的 研究 具有 多 视角 的 特性 ,因此 ,人 文 数据 需 具 有 多 维 
性 ,能 从 时 间 、 空 间 与 对 象 之 间 的 关系 角度 描述 对 象 特 
性 。 


人 文学 科研 究 数 据 的 多 维 性 集成 首先 是 需要 将 同 
类 研究 目的 的 数据 融合 ,通过 对 同类 研究 的 结果 进行 
综合 分 析 , 以 获取 新 的 概念 ,从 而 使 认识 水 平 提高 到 一 
个 新 的 高 度 ,其 次 是 将 不 同类 别 .不同 目的 的 研究 数据 


完整 性 可 计算 性 ` 可 用 性 及 重用 性 .可 发 现 及 获得 性 
等 。 
4.1 ”人文 数据 完整 性 

人 文学 科研 究 带 有 很 明显 的 实证 性 ,研究 材料 的 
真实 可 徘 ,合理 选取 材料 范围 成 为 人 文学 者 的 学 术 传 
统 ” ,人 文 研究 者 极其 考证 资料 的 真实 性 问题 及 材料 
的 溯源 ,数字 人 文 背景 下 的 图 书馆 人 文 数据 组 织 与 重 
构 首先 需要 做 到 人 文 数据 的 完整 性 。 人 文 数据 完 
整 性 主要 有 两 层 含义 :一 是 指 人 文 数据 的 收集 、 加 工 、 
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转换 及 发 布 的 生命 周期 内 实现 人 文 数据 的 可 湖 源 ;二 
是 指 某 一 类 人 文 数据 所 收录 的 覆盖 程度 。 

人 文学 科研 究 极为 重视 材料 的 真实 可 靠 性 ,保护 
人 文 数据 收集 ,加工 .转换 及 发 布 的 完整 性 和 关键 材料 
的 可 追溯 性 ,以 使 人 文 数据 具有 批判 性 的 可 寻 址 性 ,使 
研究 人 员 能 够 理解 为 什么 包含 和 排除 某 些 数据 ,为 什 
么 进行 某 些 转换 , 谁 进行 了 这 些 转换 ,同时 使 研究 人 员 
能 够 访问 用 于 实现 这 些 转换 的 代码 和 工具 ,就 像 网 络 
档案 一 样 必 须 有 效 地 传达 这 些 细微 差别 ,这 一 关键 可 
寻 址 性 概念 在 整个 研究 过 程 中 至 关 重要 ,研究 人 员 和 希 
望 根据 人 文学 科研 究 的 需要 来 选择 ,评估 和 追溯 原始 
材料 。 人 文 数据 的 完整 性 主要 体现 在 来 源 、 处 理 和 演 
示 3 个 方面 ,来 源 是 人 文 数据 的 出 处 ,做 到 原始 材料 的 
可 外 洲 性 ;处 理 是 指 研究 人 员 对 人 文 数据 加 工 ,转换 等 
过 程 ,处 理 过 程 中 需要 保证 数据 一 致 性 ;演示 是 指 用 于 
呈现 已 处 理 数据 的 方法 和 工具 ,人 文 数据 收集 来 源 、 处 
理 条 演示 方法 直接 影响 人 文学 者 对 数据 的 可 信 度 。 
“下 图 历代 人 物 传记 资料 库 ( China Biographical Data- 
se， CBDB) “及 “中 华文 明之 时 空 基础 架构 (Chinese 
CE 了 ization in Time and Space,CCTS) ”等 人 文 数据 建设 
中 都 保留 有 数据 来 源 记录 信息 。 
加 多 视角 .多 维度 研究 早已 嵌入 到 人 文学 科研 究 中 ， 
允 绷 度 分 析 要 求 数据 能 覆盖 不 同 研究 视角 ,将 不 同 来 
源 络 种 不 同类 型 的 .结构 化 和 非 结构 化 ,特点 性 质 的 
闭 据 在 逻辑 上 或 物理 上 有 机 地 关联 ,能 够 辅助 人 文学 
者 次 多 层面 .多 角度 来 揭示 问题 。 人 文学 者 历来 重视 
个 案 研 究 ,个 案 研 究 属于 微观 研究 ,人 文 研究 对 个 案 研 
究 泥 说 ,最 基本 的 价值 是 材料 完整 性 , 即 某 一 类 个 案 人 


base 


的 多 种 属性 ,分 解 出 一 系列 量 值 便于 人 文 计算 ,便于 从 
空间 与 时 间 角 度 再 现 其 横 纵 细节 特征 ,人 文 数据 建设 
过 程 中 的 “数据 化 "任务 其 实 就 是 文献 内 容 和 形式 的 
多 种 属性 描述 与 标注 。 数 字 人 文 研究 的 对 象 是 可 计算 
的 基础 数字 化 对 象 ,数字 人 文 研 究 分 析 的 不 仅仅 限于 
描述 及 标注 性 的 元 数据 分 析 、 数 字数 据 分 析 或 形式 化 
数据 的 量化 分 析 ,语言 及 历史 文本 控 据 考古 及 文化 遗 
产 图 像 分 析 、 舞 蹈 视频 捕 提 及 运动 分 析 、 网 络 社交 数据 
分 析 也 是 分 析 的 对 象 ,因此 ,人 文 数据 应 包括 人 文 研究 
中 所 有 能 进行 人 文 分 析 的 对 象 属性 与 特征 。 
4.3 ”人 文 数据 可 用 性 及 重用 性 

人 文 数据 是 数字 人 文 研 究 的 基础 之 一 ,数字 人 文 
研究 虽然 具有 路 学 科 特 性 ,但 同时 也 是 属于 专业 性 极 
强 的 研究 ,人 文 数据 往往 具有 极 强 的 专用 性 ,使 得 人 文 
数据 的 应 用 场景 具有 和 较 大 的 局 限 性 ,而 实现 人 文 数据 
的 通用 性 与 适用 性 是 图 书馆 追求 的 目标 ,为 了 使 已 建 
成 的 人 文 数 据 应 用 于 更 多 研究 场景 ,人 文 数据 可 用 性 
及 重用 性 对 数字 人 文 来 说 非常 重要 ,人 文 数据 对 象 本 
身 采 取 何 种 形式 存储 、 发 布 直接 影响 到 人 文 数据 的 可 
用 性 及 重用 性 。 

人 文 数据 通常 以 一 定 样 式 实例 化 ,一 组 通用 的 格 
式 和 数据 结构 可 以 更 好 地 支持 数字 人 文 的 研究 和 教 
学 , 随 着 人 文 数据 文档 各 种 标准 化 的 建立 , 极 大 地 促进 
了 人 文学 科 的 研究 和 教学 ,文本 编码 倡议 (text enco- 
ding initiative ,TEI) 为 电子 形式 的 文本 材料 定义 一 系列 
的 通用 标准 ,TEI 被 世界 各 国 以 文本 为 基础 的 人 文 研 
究 广泛 使 用 ” ,虽然 TEI 被 视 为 更 高 级 用 户 的 核心 格 
式 , 但 TEI 底层 的 一 系列 XML 文件 中 保存 的 数据 通常 


文 数据 所 收录 覆盖 尽量 全 。 随 着 数字 化 环境 的 发 展 ， 
新 生产 的 可 用 信息 资源 越 来 越 多 ,数字 化 的 资源 也 越 
来 越 多 ,为 人 文 数据 建设 提供 了 充裕 的 来 源 , 人文 数 据 
的 完整 性 为 图 书馆 人 文 数据 的 收集 、 开 发 及 实践 提供 
了 明确 方向 。 
4.2 ”人 文 数据 可 计算 性 

数字 人 文 是 人 文 计算 的 延续 和 发 展 ,人 文 数据 可 
计算 性 的 量化 分 析 是 数字 人 文 的 核心 ,也 是 数字 人 文 
研究 区 别 于 传统 人 文学 科研 究 的 显著 特点 。 计 量 分 析 
是 对 所 研究 的 对 象 存在 的 特征 进行 量化 分 析 , 计量 4 
析 从 对 某 些 具有 数字 特征 的 事件 作 单一 变量 的 统计 描 
述 ,到 多 个 不 具备 数字 特征 的 事物 或 事件 进行 定量 研 
究 ” ,参与 计算 的 对 象 须 有 明确 的 计量 属性 ,这 就 要 
求人 文 数据 及 知识 颗粒 化 、 属 性 的 独立 性 ,从 多 角度 进 
行 精细 化 元 数据 加 工 与 标注 ,以 揭示 文献 形式 和 内 容 
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不 太 适 用 于 数字 人 文 , 因 此 ,近年 来 人 文 数 据 越 来 越 迎 
合 人 文学 者 的 实际 需要 ,开始 制定 收集 转换 策略 以 便 
于 数字 人 文中 的 各 种 数据 之 间 的 转换 … ,在 人 文 数据 
组 织 与 构建 时 ,需要 明确 在 功能 层面 决定 哪些 人 文 数 
据 表格 最 受 人 文 研究 者 欢迎 , 按 相 对 常见 的 数字 人 文 
研究 工具 和 方法 存在 共同 的 数据 格式 要 求 进 行 转换 ， 
将 需要 的 人 文 数据 集 转换 以 便 更 好 地 支持 想 要 计算 与 
合 交互 的 用 户 ,能 根据 人 文 研究 工具 和 方法 中 的 数 
据 格式 要 求生 成 更 容易 使 用 的 数据 格式 ,如 Access、 
Excel 等 格式 的 数据 ,提高 了 人 文 数据 的 易 用 性 。 
目前 ,人 文 数据 大 多 是 科研 项 目 所 产生 的 , 随 着 人 
文 项 目的 结束 ,研究 团队 解散 ,数据 的 维护 和 更 新 就 成 
为 主要 问题 ,人 文 数据 的 维护 也 将 成 为 数据 重用 的 
个 重要 影响 因素 ,因此 ,人 文 数据 的 长 期 存储 与 监护 也 
成 为 人 文 数据 的 可 用 性 及 重用 性 关键 ,数据 监护 (data 
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curation ) 服务 的 兴起 为 数字 人 文 研究 的 数据 的 长 期 保 
存 . 交 换 与 被 更 广泛 地 获取 和 重用 提供 了 保障 ™。 
4.4 可 发 现 及 获得 性 

人 文 数据 集 差 异 巨大 ,众多 数据 混杂 使 得 数据 孤 
岛 的 现象 依然 存在 ,人 文 数据 的 建设 的 主要 目的 是 服 
务 于 人 文学 者 ,提高 人 文 数据 的 可 发 现 性 .可 访问 性 、 
可 获得 性 等 对 图 书馆 数据 服务 来 说 至 关 重要 。 

为 了 支持 人 文 数据 的 可 访问 及 获得 性 人 文 数据 建 
设 组 织 ,管理 过 程 中 的 数据 揭示 是 基础 ,主要 体现 在 
人 文 数据 的 著录 索引、 本 体 及 语义 等 内 在 描述 ,人 文 
数据 揭示 与 描述 侧重 于 人 文 数据 特征 的 表示 ,描述 了 
数据 的 特征 和 之 间 的 各 种 关联 。 而 人 文 数据 浏览 、 
航 及 相关 检索 等 外 在 数据 发 现 工 具 同 样 不 可 或 缺 , 它 
们 坦 接 面向 用 户 ,是 连结 人 文 研究 者 与 人 文 数据 之 间 
的 崇 梁 与 纽带 ,正如 Google 新 推出 数据 集 搜索 工具 
D@Det Search ( https://toolbox. google. com/ dataset- 
suoh) ,其 发 布 凸显 了 Google 对 数据 检索 的 重视 , 借 
助 名 工具 对 人 文 数据 进行 检索 ,增强 了 人 文 数据 的 可 
八 现 性 。 人 文 数据 重 现 和 透明 度 的 价值 日 益 受 到 重 
被 入 文 数据 组 织 .开发 的 重点 是 实现 人 文 数据 的 访 
同文 研究 者 最 终 目的 是 需要 获得 数据 ,当前 的 访问 
斩 R 差 异 巨 大 ,从 静态 层次 结构 的 简单 网 页 、XML 文 
休 sL 文 件 等 传统 数据 的 传统 获取 途径 ,到 利用 
Gi 量 b 及 FTP 进行 文本 集合 访问 ,发 展 到 越 来 越 多 的 
请 朋 程 序 编程 接口 (API) 等 获取 途径 ,简化 了 人 文 数 
据 疯 获 取 方式 。 


5 面向 数字 人 文 研究 的 图 书馆 人 文 数据 


组 织 及 重 构 模 式 与 方法 


5.1 面向 数字 人 文 研究 的 图 书馆 人 文 数据 组 织 与 重 
构 模式 
在 数字 图 书馆 观念 中 ,图 书馆 组 织 的 对 象 主要 是 


数字 化 的 信息 资源 ,信息 资源 是 按照 学 科 分 类 体系 以 
高 度 结构 化 的 方式 存在 ,以 资源 为 中 心 进行 组 织 ,信息 
与 信息 之 间 存 在 一 个 严格 的 层次 结构 ,构成 静态 的 "人 金 
字 塔 式 "信息 结构 模式 ( 见 图 1) ,这 样 的 信息 资源 对 于 
人 文学 者 来 说 还 是 属于 文献 层次 的 信息 ,数字 化 文献 
无 法 实现 从 * 读 "转变 为 “分 析 "的 作用 ,严格 的 层次 结 
构 难以 满足 人 文学 者 的 学 科研 究 的 需求 ,与 数字 人 文 
研究 所 要 求 的 人 文 数据 的 完整 性 .可 计算 性 、 可 用 性 及 
重用 性 .可 发 现 以 及 获得 性 等 具有 巨大 差异 。 数 字 人 
文 研究 中 的 人 文学 者 通常 专注 于 专题 性 的 研究 ,需要 
分 析 履 盖 某 个 专题 的 全 部 人 文 数据 ,因而 必须 考虑 个 


性 化 的 人 文 数据 定制 ,要 求人 文 数据 被 组 织 成 容 于 访 
问 且 可 用 于 计算 ,同时 又 要 满足 人 文 研究 中 的 多 角度 
比较 .取样 .阐释 等 ,往往 横 跨 多 个 数据 集 , 要 求人 文 数 
据 具 有 很 强 的 关联 性 ,因此 ,相关 人 文 数据 的 大 规模 融 
合 以 及 资源 的 细 粒 度 、 关 联 性 重建 ,成 为 图 书馆 支撑 人 
文 研究 的 建设 重点 。 


刁 


学 科 信 息 


专业 基础 信息 
人 文 社 科 信 息 


图 1 “金字塔 式 "信息 结构 


从 概念 上 来 说 ,数据 与 信息 处 于 不 同 层次 ,只 有 那 
些 数据 具有 一 些 可 识别 的 结构 并 具有 某 种 意义 才能 
视 为 信息 ,传统 “金字塔 式 "信息 结构 模式 使 人 文 数据 
处 于 碎片 化 状态 ,数据 碎片 化 的 本 质 就 是 数据 之 间 的 
联系 被 网 络 或 人 为 地 切断 了 , 某 个 数据 的 知识 点 与 相 
关 知 识 点 处 于 分 离 的 状态 ,被 人 为 地 孤立 。 而 数字 人 
文 研究 以 研究 任务 为 中 心 , 人文 数 据 对 于 研究 者 来 这 
应 屏蔽 各 数据 结构 与 存储 ,人 文 数据 服务 于 所 研究 的 
课题 ,能 方便 ,快捷 地 获取 到 所 需要 的 相关 人 文 数据 ， 
人 文 数据 之 间 以 研究 课题 为 中 心 形 成 “蛛网 式 " 数据 
结构 ( 见 图 2) ,数据 之 间 经 过 组 织 与 重 构 变 成 能 反映 
特定 学 科 或 领域 研究 的 “智慧 数据 ”, 使 数据 之 间 建 立 
起 关联 满足 人 文学 者 的 多 维 分 析 视 角 需 要 。 


图 2 “蛛网 式 "数据 结构 


图 书馆 要 克服 人 文 数据 碎片 化 带 来 的 零散 、 不 系 
统 的 弊病 ,必须 恢复 与 重建 人 文 数据 所 蕴含 的 知识 之 
间 的 联系 。 人 文 数据 的 组 织 与 重 构 主要 有 人 文 数据 复 
原 与 人 文 数据 重 构 这 两 种 形式 。 人 文 数据 复原 是 指 按 
照 原 有 的 学 科 知识 体系 重建 原来 的 系统 化 数据 与 知识 


19 


团 定 情 良 三 作 


第 63 卷 第 11 期 2019 年 6 月 


ChinaXiv 合 作 期 刊 


结构 ,侧重 于 人 文 数据 的 数据 化 与 数据 之 间 关 联 的 建 
立 ,首先 完成 文本 、 图 像 、 音 视频 的 颗粒 化 深度 标 引 与 
描述 ,形成 原始 完整 的 人 文 数据 结构 ,在 此 基础 上 按照 
他 们 之 间 的 关系 建立 起 关联 的 人 文 数据 ( 见 图 3); 人 
文 数据 重 构 是 指 不 必 严 格 参照 原 有 的 学 科 知 识 体 系 ， 
而 是 按照 人 文学 者 研究 的 需要 ,以 个 性 化 研究 课题 的 
人 文 数据 结构 进行 组 织 与 重建 ,在 原始 人 文 数据 中 发 
现 原来 没有 的 关系 和 知识 , 重 构 更 有 利于 解决 人 文学 
者 面临 的 真实 问题 与 场景 还 原 , 更 有 利于 知识 创新 ( 见 
图 4)。 比 较 典 型 的 “威尼斯 时 间 机 器 ”( Venice Time 
Machine) 项 目 通 过 数字 化 的 古 地 图 、 专 著 、 手 稿 和 乐谱 


权威 的 人 文 数 据 集 ,并 建立 起 人 文 数据 之 间 的 关联 ,不 
仅仅 包含 数字 化 ,更 包含 文本 图 像 . 音 视 频 的 多 角度 
的 颗粒 化 深度 标 引 与 元 数据 描述 .数据 化 数据 融合 、 
知识 关联 等 工作 ,最终 实现 知识 单元 的 细 粒 度 化 、 知 识 
组 织 的 语义 化 .知识 呈现 的 可 视 化 。 

5.2.1 数据 化 数字 人 文 研究 活动 包含 数字 化 数据 
化 .数据 管理 .数据 计算 分 析 等 ,数字 化 作为 数字 图 书 
的 最 终 产物 与 形态 ,距离 数字 人 文 的 可 计算 性 还 有 一 
定 距 离 , 因 此 有 必要 将 电子 形态 进一步 转换 为 可 识别 
的 文本 与 可 分 析 的 数据 ,以 便 做 进一步 的 计量 ,因此 ， 
数据 化 是 数字 人 文 研究 的 一 项 基础 工作 ,数据 化 的 核 


等 大 量 文件 中 离散 的 知识 与 数据 重 构 了 威尼斯 千年 历 
时 


人 六 ( 左 图 是 原始 完整 的 人 文 数据 结构 , 右 图 是 建立 关联 的 人 文 


OO 图 3 人文 数据 复原 


新 关系 和 知识 


(在 原始 人 文 数据 中 发 现 原 来 没有 的 关系 和 知识 ) 
4 ”人 文 数据 重 构 


5.2 面向 数字 人 文 研究 的 图 书馆 人 文 数据 组 织 与 重 
构 方 法 

人 文 数据 组 织 与 重 构 有 异 于 传统 的 数字 图 书馆 数 
字 资 源 整合 ,数字 资源 整合 也 称 为 数字 资源 集成 ,是 在 
各 种 数字 资源 自主 性 ` 分 布 性 `. 异 构 性 的 基础 上 ,运用 
各 种 集成 技术 和 手段 将 各 类 数字 资源 集成 在 统一 的 利 
用 环境 下 ,实现 “一 步 到 位 ”的 检索 ,面向 数字 人 文 研 
究 的 图 书馆 人 文 数据 组 织 与 重 构 方法 就 不 同 于 数字 资 
源 整合 ,人 文 数 据 融合 与 图 书馆 资源 整合 有 本 质 的 区 
别 ,人 文 数据 组 织 与 重 构 则 是 经 过 分 析 综合 、 转 换 以 
及 发 布 等 一 系列 人 文 数 据 加 工 处 理工 作 而 构建 完整 、 
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心 工 作 是 重组 文献 内 容 ,置信 使 用 者 所 建立 的 新 的 文 
本 或 数据 结构 中 , 即 文献 的 结构 化 ” ,数字 人 文 研究 
中 的 收集 ,标注 直接 以 数据 为 管理 对 象 , 而 数字 人 文 研 
究 中 的 比较 取样 .计算 分 析 等 则 依赖 于 数据 分 析 与 解 
读 。 数 据 化 包括 光学 字符 识别 文本 过 程 ,使 文献 资源 
便于 文本 分 析 与 挖 气 等 ,这 是 数据 化 的 一 种 初始 阶段 ， 
数据 化 也 包括 重组 文献 内 容 , 即 将 文献 内 容 转 化 为 可 
制 表 分 析 的 量化 形式 ,转换 为 可 量化 分 析 的 数据 。 
目前 ,大 部 分 文献 数据 化 工作 处 于 光学 字符 识别 
文本 阶段 ,手稿 及 古籍 自动 识别 依然 面临 重大 的 技术 
挑战 , 随 着 数字 人 文 的 发 展 ,更 多 的 文献 内 容重 组 及 形 
式 化 的 工作 也 相继 展开 ,如 哈佛 大 学 费 正清 中 国 研究 
中 心 ,北京 大 学 人 文 社会 科学 研究 院 、 人 台湾“ 中央 ”人 研 
究 院 历 史 语 言 研究 所 合作 开发 的 中 国 历代 人 物 传 记 资 
料 库 ,哈佛 大 学 的 地 理 分 析 中 心 和 复旦 大 学 的 历史 地 
理 研 究 所 合作 的 中 国 历史 地 理 信息 系统 、 上 海 交通 大 
学 的 “中 国 地 方 历史 文献 数据 库 ” 以 及 台湾 大 学 数位 
人 文 研究 中 心 的 多 个 数据 库 等 相继 出 现 ,以 文献 内 容 
为 基础 ,从 数字 人 文 的 理念 出 发 将 人 文学 者 所 需要 的 
文献 内 容 转化 为 可 制 表 分 析 的 量化 形式 呈现 ,实现 知 
识 多 角度 的 精细 化 、 关 联 化 ,满足 数字 人 文 的 完整 性 、 
可 计算 性 \ 可 用 性 及 重用 性 、 可 发 现 及 获得 性 等 ,这 是 
数据 化 的 未 来 发 展 方向 。 
5.2.2 数据 融合 传统 的 量化 分 析 通 常 是 对 单一 数 
据 源 进行 深入 的 追踪 和 分 析 , 分 析 人 员 对 数据 的 来 源 
和 结构 有 一 定 的 控制 和 深层 的 了 解 。 数 字 人 文 研究 则 
寺 别 强调 人 文 数据 的 重用 性 与 多 视角 的 取样 分 析 , 形 
成 有 效 的 多 视角 分 析 数 据 集 是 数字 人 文 研究 必须 面 对 
的 一 个 瓶颈 ,也 是 大 数据 背景 下 人 文学 科研 究 的 基础 。 
数据 化 只 是 实现 了 传统 数字 人 文 素材 向 数字 世界 的 映 
射 ,能够 被 计算 机 所 存储 、 处 理 和 展示 ,人 文 数据 的 多 
维 性 则 要 求 通过 信息 及 知识 单元 的 方式 来 组 织 , 从 而 
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能 够 构造 一 个 模拟 领域 应 用 的 环境 ,在 这 个 过 程 中 , 数 
据 融 合成 为 不 可 或 缺 的 一 步 。 数 据 融合 使 人 文学 者 可 
以 轻松 驾驭 多 样 .多 源 的 数据 ,便于 进行 多 维度 挖掘 和 
分 析 , 帮 助人 文学 者 发 现 新 规律 .新 价值 。 经 过 多 年 的 
发 展 ,数字 图 书馆 资源 平台 存储 了 大 量 可 计算 的 基础 
数据 ,作为 数字 人 文 的 重要 数据 来 源 ,因此 ,数据 的 复 
用 和 重组 是 极为 重要 的 ,数据 重用 和 重组 是 人 文 数据 
组 织 与 重 构 的 主要 任务 ,融合 不 同 图 书馆 的 不 同人 文 
数据 对 数字 人 文 研究 致 关 重 要 。 

人 文 数据 融合 是 对 同一 研究 对 象 相关 的 多 个 属性 
数据 采用 一 定 的 模式 与 方法 ,生成 一 个 新 的 .更 能 有 效 
表示 该 研究 对 象 的 综合 数据 集 或 获得 新 的 隐 性 知识 ， 
将 单一 数据 或 不 同类 别 的 多 源 数据 加 以 综合 ,消除 多 
源 信息 之 间 可 能 存在 的 宛 余 和 矛盾 ,加 以 互补 ,改善 研 
究 对 象 信息 提取 的 及 时 性 和 可 靠 性 ,提高 数据 的 使 用 
效 药 。 人 文 数据 融合 首先 连接 所 需 多 源 数据 库 并 获取 
eo 


础 上 进行 数据 转换 和 建立 结构 ,实现 数据 组 合 、 
数 握 整合 和 数据 聚合 并 建立 分 析 数 据 集 。 
O 〇 人 融合 形式 来 说 ,人 文 数据 融合 主要 有 异 构 融 合 、 
融合 .多 模 融 合 3 种 形式 , 异 构 融合 是 指 将 结构 数 
据 < 半 结构 数据 和 非 结构 等 不 同 存储 结构 形式 的 人 文 
妹 迫 进行 融合 ;多 源 融 合 是 针对 来 自 于 不 同 的 学 科 令 
域 和 数据 源 的 人 文 数据 进行 融合 ;多 模 融 合 是 指 对 文 
杞 纪 像 .语音 等 不 同 的 人 文 数据 形式 进行 融合 。 数 据 
禹 容 胜 于 数据 仓库 和 数据 一 体 化 在 于 它 能 包容 多 源 数 
据 到 I 将 不 同属 性 并 与 蘑 一 潜在 的 对 象 存在 一 定 隐 合 
关 蕊 的 多 源 数据 集 融 合 形成 一 个 新 的 数据 集 ,甚至 新 
知识 ,融合 提高 了 人 文 数据 的 互补 性 和 完整 性 。 如 图 


5 所 示 : 
文本 数据 库 表格 
Text DataBase Table 


数据 融合 (Data fusion) 


De 
图 5 人 文 数据 融合 形式 
从 融合 层次 来 说 ,多 源 人 文 数据 融合 可 分 为 :数据 
层 融合 特征 层 融 合 及 决策 层 融 合 ( 见 图 6)” ,数据 
层 融 合 是 指 直接 对 采集 及 加 工 的 原始 数据 进行 简单 组 
合 ,数据 层 融 合 是 数据 融合 的 最 简单 方法 ,也 是 数据 融 


音频 
Audio 


6 ”人 文 数据 融合 层次 


合 的 基础 。 特 征 层 融 合 则 是 在 数据 层 融 合 的 基础 上 进 
行 特 征 提取 ,然后 对 特征 信息 进行 综合 分 析 和 处 理 , 特 
征 层 融合 是 基于 特征 拼接 的 方法 。 决 策 层 融合 则 通过 
关联 处 理 进行 决策 层 融 合 判决 ,最 终 获 得 联合 推断 结 
果 , 决 策 层 融 合 是 基于 语义 信息 融合 的 方法 ,包括 了 多 
视角 、 基 于 概率 学 模型 的 方法 、 基 于 相似 度 的 方法 、 以 
及 迁移 学 习 的 方法 。 
5.2.3 数据 关联 及 发 布 人文 数据 的 可 访问 性 和 可 
用 性 问题 是 数字 人 文 研究 的 重要 挑战 之 一 ,人 文学 者 
往往 需要 将 研究 查询 从 一 个 人 文 数据 集 转换 到 男 一 个 
人 文 数据 集 ,甚至 允许 直接 交叉 数据 集 查 询 ,然而 人 文 
学 科研 究 成 果 的 多 样 性 ,以 及 人 文科 学 研究 工作 通常 
围绕 单个 个 体 或 小 团体 的 努力 进行 组 织 , 使 得 人 文学 
科 的 数据 访问 .共享 与 重用 似乎 是 一 个 无 法 实现 的 目 
标 。 目 前 ,关联 数据 技术 最 有 可 能 填补 这 一 空白 ,改善 
人 文 数字 的 访问 及 重用 的 局 限 性 ” 。 人 文 数据 集 是 
各 种 人 文 数据 通过 建立 关联 而 成 的 数据 集 ,数据 集 从 
古代 地 图 到 书目 记录 ,到 绘画 . 音 视 频 , 到 古文 字 分 析 ， 
再 到 插图 事实 等 对 象 , 它 们 之 间 存 在 各 种 紧密 关系 ,其 
中 一 些 相互 关联 ,因此 需要 聚合 .集成 并 提供 交叉 搜 
索 ,查找 实体 和 作品 之 间 的 链接 ,构建 叙述 ,分 析 数 
据 ”  。 语 义 技 术 和 关联 数据 使 大 规模 数字 人 文 的 协 
作 和 聚合 研究 成 为 可 能 ,其 中 关联 数据 和 知识 图 谱 增 
强 了 机 器 可 读 、 机 器 可 理解 性 ,通过 关联 数据 技术 构建 
关系 明确 的 语义 本 体 , 实 现 基 于 文献 知识 内 容 的 揭示 ， 
增强 了 人 文 数据 重用 和 与 外 部 数据 的 互联 ,形成 了 互 
连 和 分 散 的 全 局 知识 网 络 ,实现 了 一 种 人 文 数据 链接 
的 新 模式 ,使 人 文 数据 作为 一 个 整体 被 人 文学 者 所 利 
用 。 近 年 来 ,上 海 图 书馆 应 用 关联 数据 技术 对 家 谱 数 
据 及 历史 地 理 数 据 的 开放 应 用 进行 大 量 实践 ” ,采用 
关联 数据 使 得 从 以 图 书馆 为 中 心 的 知识 组 织 系 统 向 路 
领域 公开 可 用 和 易于 访问 的 知识 图 转变 ,提高 了 人 文 
数据 的 可 用 性 和 重用 性 。 

人 文 数据 领域 特定 知识 结构 的 开发 和 管理 是 人 文 
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学 科 的 重要 元 素 ,在 图 书馆 和 数字 人 文 领域 内 ,知识 的 
概念 图 深 深 植 根 于 知识 组 织 系统 , 主要 涉及 异 构 源 的 
知识 (潜在 的 ) 语 义 索引 ,分 类 或 查询 .导航 以 及 可 视 
化 等 ,知识 组 织 系统 在 图 书馆 领域 具有 数 百年 的 传统 ， 
在 元 数据 描述 中 它们 被 用 于 组 织 资源 并 促进 资源 发 
现 和 检索 。 随 着 关联 数据 的 出 现 ,知识 组 织 系统 经 历 
了 数字 化 转型 并 进入 了 互联 网 领域 ,2012 年 , 随 着 
“ Google Knowledge Graph” 的 出 现 六 ,知识 图 谱 立 刻 受 
到 学 界 及 工业 界 的 普遍 关注 ,并 成 为 研究 的 热点 ,给 
图 书馆 领域 的 知识 组 织带 来 了 新 的 变革 。 知 识 图 谱 是 
近年 来 知识 组 织 领域 的 研究 热点 ,是 一 种 以 语义 网 络 
为 基础 的 新 型 海量 知识 管理 和 服务 模式 ,知识 图 谱 旨 
在 描述 客观 世界 的 概念 .实体 .事件 及 其 间 的 语义 关 
系 名 。 构 建 知识 图 谱 的 主要 目的 是 获取 大 量 的 ` 让 计 
算 杭 可 读 的 知识 以 及 实体 及 其 相关 属性 - 值 对 ,实体 
过 间 通 过 关系 相互 联结 ,构成 网 状 的 知识 结构 ,增强 知 
讽 全 元 之 间 的 关联 ,实现 用 户主 题 检索 需求 ,从 而 真正 
实现 语义 检索 。 
入 -知识 图 谱 技 术 济源 已 久 ,很 长 一 段 时间 以 来 ,学 术 
马 直 关 注 如 特定 领域 内 的 地 方 或 人 等 权威 数据 的 管 
了 5 这 些 知识 图 谱 一 直 遵循 与 图 书馆 知识 组 织 方案 类 似 
的 身 式 :它们 越 来 越 多 地 根据 关联 数据 原则 发 布 ,并 与 
两 强 上 的 其 它 知识 图 谱 相 关联 ,使 用 共享 的 语义 梳 
念 于 。 知 识 图 谱 本 身 就 是 一 种 语义 化 的 表示 方式 ,具有 
旷 三 的 语义 网 特征 。 基 于 数字 人 文 研究 的 知识 图 谱 构 
建 如 应 了 数字 人 文 研究 的 需要 ,通过 知识 图 谱 可 以 对 这 
些 信 息 资源 进行 语义 标注 和 链接 ,对 同一 研究 对 象 的 多 
个 属性 数据 采用 知识 图 谱 的 形式 ,以 需求 为 导向 在 统一 
系统 平台 中 对 数字 化 文献 所 蕴涵 的 多 重信 息 进行 多 角 
度 的 揭示 和 重组 ,语义 联系 组 合成 纵横 交错 的 多 维 结 
构 ,建立 以 知识 为 中 心 的 资源 语义 集成 服务 ,突破 传统 
的 应 用 模式 ,充分 展示 人 文 知识 的 最 大 价值 。 对 同一 研 
究 对 象 的 多 个 属性 数据 采用 知识 图 谱 的 形式 ,可 生成 一 
个 新 的 .更 能 有 效 表示 该 研究 对 象 的 综合 数据 集 或 获得 
新 的 隐 性 知识 。 跨 域 知识 图 谱 正如 图 书馆 和 数字 人 文 
领域 中 出 现 的 那样 ,开辟 了 一 个 全 新 的 研究 机 会 。 
近年 来 ,知识 图 谱 在 国内 外 的 数字 人 文 项 目 中 越 
来 越 受到 重视 ,展现 出 了 巨大 的 应 用 前 景 。 笔 者 近年 
来 致力 于 古籍 知识 图 谱 的 构建 ,通过 与 古籍 知识 密切 
相关 的 古籍 编撰 者 .籍贯 .时 间 ( 年 代 ) ,编撰 方式 、 藏 
书 机 构 等 要 素 , 围 绕 从 时 间 ( 年 代 ) ,空间 ,关系 等 角度 
进行 多 维 关系 构建 ,通过 整理 中 国 日 本 及 欧美 主要 国 
家 的 近 200 万 种 古籍 数据 ,形成 了 中 国 古 籍 知识 图 
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谱 " ,方便 了 古籍 知识 (潜在 的 ) 语 义 索引 、 分 类 或 查 
询 ,计算 分 析 及 可 视 化 等 ,从 数字 人 文 研究 应 用 的 维度 
来 说 ,从 强大 知识 关联 性 方面 有 助 于 考察 版 本 源流 , 理 
清流 变 脉络 ,还 能 够 通过 古籍 知识 图 谱 分 析 责 任 者 、 编 
撰 时 间 .编撰 方式 .版 本 特征 等 多 种 维度 的 相关 性 分 
析 , 从 而 进一步 揭示 古籍 数据 背后 隐藏 的 丰富 文化 历 
史 等 知识 ,突破 了 传统 的 以 古籍 单一 数据 源 统 计 分 析 
的 模式 ,通过 规则 推理 技术 可 以 获取 数据 中 存在 的 隐 
含 知 识 ,通过 古籍 责任 者 空间 信息 可 视 化 分 析 功 能 ,为 
文学 地 理 的 空间 环境 分 析 提 供 了 新 的 研究 方式 ,提升 
了 古籍 文献 目录 知识 服务 的 价值 。 


数据 是 数字 人 文 研究 的 基础 和 核心 之 一 ,在 数字 

人 文 研究 过 程 中 ,图 书馆 作为 资源 存储 库 ,庞大 的 数字 

资源 成 为 人 文 研究 重要 的 人 文 数 据 来 源 , 在 去 中 介 化 

的 趋势 下 ,图 书馆 急需 从 数字 馆藏 到 数字 数据 ,从 数据 

管理 到 数据 服务 ,从 数据 呈现 到 数据 分 析 的 转变 ,面向 

数字 人 文 研究 的 服务 对 图 书馆 来 说 既是 机 遇 更 是 挑 

战 ,成 为 图 书馆 转型 的 契机 ,而 面向 数字 人 文 研究 的 图 

书馆 人 文 数据 组 织 与 重 构 则 成 为 关键 ,图 书馆 需要 了 

解数 字 人 文 研究 的 人 文 数据 特点 及 文学 者 研究 对 人 文 

数据 的 需求 ,从 人 文 数据 的 完整 性 、 可 计算 性 、 可 用 性 

及 重用 性 、 可 发 现 以 及 获得 性 等 角度 出 发 进行 人 文 数 

据 组 织 与 重 构 , 图 书馆 要 克服 人 文 数 据 碎片 化 带 来 的 

零散 \ 不 系统 的 丈 病 ,必须 恢复 或 重建 人 文 数据 所 蕴含 

的 知识 之 间 的 联系 ,利用 数据 化 数据 融合 .数据 关联 

及 发 布 等 手段 ,最 终 实 现 知 识 单元 的 细 粒 度 化 、 知 识 组 

织 的 语义 化 、 知 识 呈 现 的 可 视 化 。 图 书馆 人 文 数据 组 

织 与 重 构 不 但 能 提高 数字 资源 的 利用 率 ,而 且 能 拓展 

图 书馆 人 文 数据 服务 ,可 极 大 地 促进 数字 人 文科 学 的 

发 展 ,也 是 图 书馆 知识 型 专业 服务 的 具体 体现 ,有 利于 

提供 更 高 层次 领域 的 服务 。 
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the Background of Digital Humanities 
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Abstract: [Purpose/significance | Data is one of the foundation and core of digital humanities research. The organ- 
ization and reconstruction of humanities data in library can not only improve the utilization of digital resources but also ex- 
pand the library humanities data services, which can greatly promote the development of digital humanities science. lt is 
also a concrete manifestation of library knowledge -based professional services, which is conducive to providing services in 
higher level areas. [ Method/process | This paper analyzes the characteristics of humanities data in digital humanities re- 
search and the demand for humanities data by humanities researchers, and considers that the library should be based on 
the integrity, calculation, usability and reusability of humanities data to organize and reconstruct humanistic data of librar- 
ys 于 FEResult/conclusion | To overcome the fragmented and unsystematic ills caused by the fragmentation of humanities da- 
ta A is necessary to use the link between the knowledge of restoring or rebuilding the humanities data, using the means of 
da data fusion, data association and publication and finally realizing the fine granularity of knowledge unit the seman- 


tiesof knowledge organization and the visualization of knowledge presentation. 


Keywords : digital library digital humanities humanities data data organization ”knowledge reconstruction 
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iConference 2019 在 美国 马里 兰 大 学 帕克 分 校 举行 


; 
2019 年 3 月 31 日 -4 月 3 日 2019 年 (第 十 四 届 )iconferenee 会 在 美国 马里 兰 大 学 帕克 分 术 闪 行 ,本 次 会 议 
=> 由 马里 兰 大 学 帕克 分 校 主办 , 雪 城 大 学 和 马里 兰 大 学 巴尔 的 摩 郡 分 校 协办 ,会 议 获得 美国 国家 科学 基金 会 .美国 计 ' 
S_ 算 研究 协会 . 受 墨 瑞 得 出 版 社 ` 爱 思 唯 尔 .MDEI 出 版 社 摩 根 和 克 莱 普 尔 出 版 社 .NVIVO 公司 .匹兹堡 大 学 计算 与 信 | 
(G5 息 学 院 、 肯 塔 基 大 学 信息 科学 学 院 、 人 台湾 大 学 图 书 资讯 学 系 、 田 纳西 大 学 诺 克 斯 维尔 分 校 信息 科学 学 院 等 机 构 赞 : 
所 助 。 林 次 会 议 的 主题 是 启 智 \ 包 容 \ 启 过 (infom vinelude,inspire), 旨 在 探讨 21 世纪 启 智 的 意义 ,如 何 扩大 信息 革命 
1 = 的 覆盖 面 ,并 思考 如 何 更 好 地 启迪 个 人 和 组 织 在 这 个 快速 变化 的 知识 社会 中 利用 信息 。 全 球 60 余 位 iSchool 学 院 | 
〇 院 长 , 近 600 名 学 者 参加 此 次 会 议 ,中 国人 民 大 学 .武汉 大 学 南京 大 学 .北京 大 学 ,中 山大 学 南开 大 学 南京 理工 大 
学 河北 大 学 西北 师范 大 学 .云南 师范 大 学 .华中 师范 大 学 等 中 国 高 校 师 生 参 加 了 本 次 会 议 。 本 次 会 议 共 接收 77 | 
篇 论文 和 91 篇 海报 ,接收 的 论文 由 施 普 林 格 计算 机 科学 讲义 (Springer”s Lecture Notes in Computer Science ) 收录 ,并 ‘ 
在 伊利 诺 伊 大 学 图 书馆 的 IDEALS(Ilinois Digital Environment for Access to Learning and Scholarship ) 开放 获取 。 本 次 | 


、 é 


会 议 上 ,共有 3 名 专家 作 大 会 主题 报告 ,分别 是 密歇根 大 学 信息 学 院 W. K. Kellogg 社区 信息 教授 Kentaro Toyama 博 
士 作 题 为 “技术 的 扩 增 法 则 及 其 对 iSchool 的 意义 (Technology”s Law of Amplification, and What It Means for 
iSchools) ”报告 , 互联 网 档案 馆 创 始 人 Brewster Kahle 博士 作 题 为 “开放 图 书馆 : 百 万 在 线 图 书 的 受 控 数字 借阅 ” 
(Openingour Libraries: Millions of Books Online through Controlled Digital Lending) 报 告 ,第 14 任 美国 国会 图 书馆 馆 长 
Carla Diane Hayden 博士 作 题 为 “数字 时 代 的 图 书馆 :怎么 办 ?”(Libraries in the Digital Age: Now What? ) 报告 。 本 次 
会 议 评 选 出 ”Understanding the Role of Privacy and Trust in Intelligent Personal Assistant Adoption ”获得 LEE DIRKS 最 
佳 论文 奖 ，Characterizing Same Work Relationships in Large - Scale Digital Libraries” 获 最 佳 短文 奖 ,“ Algorithmic Ac- 


countability in Surveillance Regulation” 获 最 佳 海报 奖 ,“ Disrupting the Coming Robot Stampedes: Designing Resilient In- 
formation Ecologies”“Troubled Worlds: Bringing Bodies and the Environment into Computing Research, Practice, and 
Pedagogy” 、 Human Security Informatics: A Human - centered Approach to Tackling Information and Recordkeeping Issues 
Integral to Societal Grand Challenges” 分 获 蓝 天 论文 (BLUE SKY PAPER) 一 二 ,三 等 奖 。 


(华中 师范 大 学 曹 高 辉 供稿 ) 


国人 一 一 一 一 一 一 一 一 全 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 全 一 一 一 一 一 全 一 一 一 一 一 一 一 一 一 一 一 一 一 人 一 全 一 一 一 一 一 全 一 一 一 一 一 人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


A NAAN A NA A 
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